Skip to main content

Level 2: Xử lý dữ liệu & Trực quan hóa

15 Buổi ~ 30H

Link Syllabus: Xem chi tiết tại đây

1. Tổng quan về Data Science

  • Giới thiệu Data Science
  • Phân tích và thao tác dữ liệu
  • Trực quan hóa dữ liệu

2. Python Re-checking

Phần 1:

  • Tổng quan
  • Cấu trúc dữ liệu
  • Luồng điều khiển

Phần 2:

  • Tập tin
  • Xử lý ngoại lệ

Python Notes:

  • Khác biệt trong Python
  • Chú thích kiểu dữ liệu
  • Kiểm tra kiểu dữ liệu tự động
  • Coding style

3. Data Collection

Phần 1:

  • Giới thiệu
  • Requests

Phần 2:

  • BeautifulSoup
  • Selenium

4. NumPy

Phần 1:

  • Giới thiệu
  • Mảng (Array)
  • Broadcasting

Phần 2:

  • Ma trận
  • Thống kê trên mảng NumPy

5.6 Pandas

Phần 1:

  • Giới thiệu đối tượng Pandas
  • Lập chỉ mục dữ liệu
  • Hoạt động trên dữ liệu
  • Xử lý dữ liệu bị thiếu (Handling missing data)

Phần 2:

  • Lập chỉ mục phân cấp
  • Kết hợp tập dữ liệu: Concat và Append
  • Kết hợp tập dữ liệu: Merge và Join
  • Tổng hợp và phân nhóm

Phần 3:

  • Bảng tổng hợp (Pivot Tables)
  • Hoạt động chuỗi được vector hóa
  • Làm việc với chuỗi thời gian (Time Series)
  • Hiệu suất cao với Pandas: eval()query()

7. Matplotlib

Phần 1:

  • Giới thiệu Matplotlib
  • Các biểu đồ cơ bản

Phần 2:

  • Các biểu đồ cơ bản (tt)
  • Tùy chỉnh biểu đồ

8. Máy học (Machine Learning)

Phần 1:

  • Tổng quan
  • Học có giám sát
  • Học không giám sát

Phần 2:

  • Thực hành Học có giám sát

9. Hồi quy (Regression)

  • Khái niệm hồi quy
  • Hồi quy tuyến tính
  • Cài đặt với Python

10. Phân lớp (Classification)

Phần 1:

  • Giới thiệu phân lớp
  • Đặc trưng (Feature)

Phần 2:

  • Tính toán xác suất
  • Nâng cao

11. Học không giám sát - Gom cụm

Phần 1:

  • Giới thiệu
  • Độ đo khoảng cách

Phần 2:

  • Hàm tiêu chí để đánh giá cụm
  • Thuật toán tính cụm (tối ưu hóa hàm tiêu chí)

12. Phân khúc khách hàng

  • Giới thiệu phân khúc khách hàng
  • Thuận lợi của phân khúc khách hàng
  • Giải thuật phân nhóm K-means

13. Ứng dụng thực tế

  • Phân tích dữ liệu thực tế từ nguồn mở
  • Xử lý dữ liệu từ API, web scraping-
  • Xây dựng báo cáo và dashboard với Pandas, Matplotlib
  • Giới thiệu về Dash và Streamlit để tạo giao diện trực quan

14. Ứng dụng thực tế với Python

  • Xử lý dữ liệu thực tế (CSV, Excel, API)
  • Thực hành trực quan hóa dữ liệu
  • Ứng dụng Python trong công việc hàng ngày"

15. Ôn tập

  • Tổng kết kiến thức đã học